EvoClass
IA012

Approfondimento sui grandi modelli linguistici

Agenti autonomi, RLHF e allineamento della sicurezza

Lezione
Lezione 8
Insegnante
Tutor AI

Obiettivi didattici

  • Analizzare i componenti architetturali degli agenti GUI, inclusi i moduli di pianificazione, decisione e riflessione nei sistemi multi-agente.
  • Spiegare i meccanismi dell'Apprendimento per rinforzo (RL) e del RLHF, in particolare il ruolo dei modelli di ricompensa e di PPO nell'allineare il comportamento dell'agente ai valori umani.
  • Valutare i rischi per la sicurezza e le problematiche di affidabilità negli agenti autonomi, inclusi gli errori Out-of-Distribution (OOD), attacchi di bypass e distrazioni ambientali.